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摘要 探究 带宽 选择 方法 、 样 本 量 、 题 目 数 量 
察 分 数 核 等 值 的 影响 。 通 过 两 种 数据 模拟 方式 , 获得 和 
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等 值 设计 、 数 据 模拟 方式 对 项 目 反 应 天 
究 数据 , 并 计算 局 部 与 全 域 评 价 指标 。 
UA; 考生 样本 量 和 题目 数 
> IRINAS Silverman 经 验 准 则 表现 优异 ; 增加 题目 量 可 降低 百 分 相 对 误差 和 
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导致 百 分 相 对 误差 变 大 ， 随 机 误差 减 小 。 数 据 模拟 方式 可 影响 等 值 评 
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价 。 未 来 应 重点 关注 等 
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值 系统 评估 。 


关键 词 IRT 观察 分 数 核 


1 问题 提出 


等 值 ， 带 宽 选 


择 


方法 ; 等 值 设 计 ， 数 据 模拟 方式 


核 等 值 (Kernel Equating，KE) 是 一 种 测验 等 值 方法 体系 ， 它 基于 近似 传统 等 百 分 位 等 


值 (Equipercentile Equating，EE)， 并 将 线性 


E 共 包含 五 步 : (1) 预 3 


E 


连续 化 。(4) SH, BURA 
Œ, 2008)。KE 采用 预 平滑 和 连续 人 
von Davier & Chen, 2013)。 从 等 值 设计 到 等 值 评价 ， 均 在 一 系列 特有 且 相 互联 系 的 机 
Ks 同时 可 对 各 环节 单独 分 析 ， 调 整 参数 ， 得 到 与 其 他 方法 相似 的 结果 ， 极 


CEDARS, 


为 精确 、 稳 定 ， 具 有 较 大 发 展 和 应 月 


FE 等 值 作为 特例 (von Davier et al., 2004)。 研 究 流 


eit, BUH 


日 对 数 线性 模型 拟 合 观察 分 数 。(2) 估计 分 数 概率 ， 即 
过 设计 函数 ， 将 拟 合 的 样本 分 数 概率 转化 为 总 体 分 数 概率 。(3 ) 连续 化 ， 即 将 离散 累积 分 布 
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JR 


2020). KE, KE 相 较 于 经 典 测量 到 


前 景 。 


HH 


日 于 其 条 


为 项 


包含 观察 分 数 等 值 ORT Observed Score Equating, IRTOSE) 
Equating，IRTTSE )。 在 将 参数 置 于 同 


H EE 获得 分 数 对 应 关系 ; 而 后 者 认为 两 测验 中 相同 能 力 对 应 的 真 分 数 


EBA, BURA 


即 为 等 值 分 数 (Kolen & Brennan, 2014). KE 与 IRT 等 值 方法 


者 优 于 后 者 (De Ayala et al., 2018; Leôncio & Wiberg, 2017; Wang et al., 2020)。 那 么 ， 


| EE 计算 


+ 四 
结果 ， 


E 
Æ, 
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J EE 计算 结果 。(5) 计算 等 值 标 六 
,可 降低 


H 


E 误 等 指标 ， 即 评估 等 值 结果 ( 罗 
因 样 本 量 较 少 造成 的 随机 误差 (Jiang etal., 2012; 


=> 


E 架 中 


包容 与 扩展 性 


a 


ve (Classical Test Theory, CTT) 等 值 更 


不 能 从 更 微观 角度 ， 将 考生 与 题目 参数 同时 建 模 ， 而 这 恰 


反应 理论 (Item Response Theory, IRT) 等 值 擅长 之 处 。 在 分 数 层 面 ，IRT 等 值 方法 


与 真 分 数 等 值 CRT True Score 
尺 后 ， 前 者 通过 IRT 模型 计算 待 等 两 测验 正确 作 


有 优 劣 ， 在 特定 条 件 下 ， 前 


EAN 


将 KE 与 IRT 等 值 方法 结合 ， 使 新 方法 既 有 前 者 的 连续 化 思想 ， 又 包含 后 者 的 优异 特性 呢 ? 
2 IRT 观察 分 数 核 等 值 及 其 相关 概念 
2.1 IRT 观察 分 数 核 等 值 


Andersson 等 (2013) 最 早 将 KE 与 IRTOSE 结合 ， 在 专门 开展 KE 分 析 的 kequate 软件 


包 中 提出 IRT 观察 分 数 核 等 值 (IRT observed score Kernel Equating, IRTKE) 的 概念 。 因 非 


等 组 锚 测 验 设计 (Non-Equivalent groups with Anchor Test design, NEAT) 较为 常用 ， 且 本 研 


究 亦 基于 此 ， 故 仅 介绍 NEAT 下 的 IRTKE。 其 他 设计 可 参考 Andersson 和 Wiberg (2017) 和 


Sansivieri “ (2017). 
假设 有 测验 X、Y 与 错 测 验 A， 用 六 、sk、tp tor BIRGER EK PM O 的 考生 分 
ARGS Blo. yy Alay ZS. FG, RH IRT 模型 (本 研究 为 二 参数 逻辑 斯 带 克 模型 ，2- 
Parameter Logistic Model, 2PLM) 拟 合 数据 ， 得 到 考生 和 题目 参数 。 第 二 步 ， 依 据 n ~ 
fin(tr)W(t) 计 算得 分 概率 ，t 为 第 7 个 积分 节点 的 能 力 水 平 ，7 人) 为 根据 Lord 和 
Wingersky (1984) 迭代 算法 求 出 的 分 数 概率 ，WW (t) 为 积分 节点 女 的 权重 。sk、tp 与 toy 算 


法 类 似 。 第 三 步 ， 连 续 化 。 将 离散 变量 X 连 续 化 后 ， 可 得 到 X(Chnx) 的 累积 分 布 函数 把 ,(x) = 


jn (Rix(x)) ， 其 中 @(z) 为 标准 正 态 分 布 的 累积 分 布 函数 ，Rix (CD = aes, hy 


axhx 


WHR. YS 4 的 连续 化 与 之 类 似 。 第 四 步 ， 等 值 。 依 据 EE, êc) = 


Gayo Alon ag (Bpraap (Pony COD) 其 中 ， giyo O> Rongo O> Apk O> fipns(") 分 别 为 测验 


Y 和 A 在 QO 上 的 分 数 分 布 ,以 及 测验 A 和 XX 在 P 上 的 分 数 分 布 。 第 五 步 , 计算 等 值 标准 误 


(Standard Error of Equating, SEE ) 和 等 值 差异 标准 误 (Standard Error of Equating Difference, 


SEED). 


Andersson (2016) 推导 出 多 级 计 分 IRTKE 的 渐 近 标准 误 ， 为 等 值 评 估 提 供 可 靠 指标 。 
Wiberg (2016a) 提出 局 部 线性 IRTKE， 用 IRT 模型 拟 合 数据 ， 再 利用 作答 反应 概率 求 得 线 
性 等 值 中 的 总 体 参数 进行 等 值 。Wiberg (2016b) 比较 了 传统 方法 与 IRTKE 的 表现 ， 但 未 得 
出 明确 结论 。Andersson 和 Wiberg (2017) 系统 介绍 了 基于 IRTKE 的 链 等 值 和 后 分 层 等 值 ， 
发 现 其 等 值 标准 误 和 偏差 均 较 小 。Wang “A, (2020) 模拟 操纵 了 样本 量 、 测 验 长 度 、 数 据 


模拟 方式 与 参照 等 值 ， 比 较 EE. KE, IRTOSE 与 IRTKE， 发 现在 随机 组 设计 (Equivalent 


Groups design, EG) 下 IRTKE 表现 最 优 ， 而 在 NEAT F, IRTOSE 最 优 。 但 尚未 有 学 者 专 


门 探讨 IRTKE 的 影响 因素 。 
2.2 连续 化 与 带宽 选择 方法 


连续 化 是 KE 的 关键 。 将 X 与 连续 变量 V 加 和 ， 得 到 X(hx) = ax(X +hyV) + 


2 


(1- a)y Hha = SO, Ry ARIE, py OPIN X 的 平均 数 与 方差 。Y(hy) 转 换 同 理 。 


可 见 ，hx 控 制 着 分 数 连续 化 程度 。 最 常用 的 带宽 选择 方法 为 惩罚 法 Penalty Method), 


PENChx) = Dy(tj — fay) + Kj4j(1 一 Bj)， 其 中 X(hx) 的 概率 密度 函数 所 (Xx) = 


jn9(Rix()) 二 二 ，() 为 标准 正 态 分 布 的 概率 密度 函数 ，K 为 常数 ， 当 在 % 稍 偏 左 位 轩 


fry) < 0 时 ，4j = 1， 当 在 %y 稍 偏 右 位 置 包 (x) > 0 时 ，Bj = 0。 


Silverman 经 验 准 则 (Silverman’s Rule of Thumb method) 通过 使 渐 近 平均 积分 平方 误差 


最 小 化 从 而 求 取 带宽 (Andersson & von Davier, 2014)。 为 减 小 异常 值 的 影响 , 避免 过 度 平滑 


Ht 


同时 考虑 ax， 得 到 hx = 一 至 一 ， 其 中 ，ax 含 义 同上 ，nx 为 参加 测验 X 的 考生 人 数 。 
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Häggström 和 Wiberg (2014) 将 重复 平滑 法 (Double Smoothing Method) 应 用 于 带宽 


Fee 首先， 以 最 小 分 数 单位 的 一 半 进行 连续 化 , 得 到 (x) = aro (Ror) 一 一， 其 


agxhgx 


x-a i-(1- 2 i = 3 ‘ n ` 
, Rigx(x) = EEO, G2, = É RRA LS EX ARMM. RK 
"gx 


agxhgx 


利用 户 (x)， 再 次 连续 化 得 到 所 (x) = 如 -1 fox (29) (Rix) 二 。 最 后 ， 求 使 重复 平滑 函 


数 最 小 对 应 的 带宽 DS(hx) = D251 (A — fing) ， 其 


reg /为 奇数 
PA = 2 o 
fay (Xi), /为 偶数 


虽 有 研究 表明 , 三 种 带宽 选择 方法 均 较 为 优异 (Andersson & von Davier, 2014; Häggström 


& Wiberg, 2014)， 但 还 未 有 研究 探讨 其 对 IRTKE 的 影响 。 

2.3 数据 模拟 方式 

在 等 值 模 拟 研究 中 ,一 般 借助 蒙特 卡 洛 方法 , 从 特定 的 先 验 分 布 中 抽取 参数 值 , 通过 IRT 
模型 ， 计 算 被 试 作答 反 应 矩阵 。 该 方式 便捷 、 易 理解 和 接受 。 但 研究 结论 可 能 偏向 IRT 等 值 


方法 (De Ayala et al., 2018; Norman Dvorak, 2009)。 如 何 降 低 数 据 模拟 方式 可 能 导致 的 偏 


差 呢 ?构造 伪 测 验 及 伪 群 组 法 (Pseudo-Test Forms and Pseudo-Groups) 最 早 由 Petersen 等 
(1982) 提出 ， 通 过 抽取 实测 数据 ， 构 建 虚拟 测验 与 考生 ; 尽量 保证 模拟 的 现实 性 而 又 不 失 
结论 的 一 般 性 。 虽 有 不 少 学 者 将 其 应 用 于 等 值 比较 (例如 ，Hagge & Kolen, 2012; Kim & Lu, 

2018; Powers & Kolen, 2012)， 但 均 未 涉及 IRTKE。 验 证 该 方法 的 可 靠 性 ， 可 为 相关 研究 提 

供 新 的 切入 点 。 

3 研究 设计 

3.1 研究 目的 

采用 不 同 数据 模拟 方式 和 等 值 设 计 ， 探 究 带宽 选择 方法 、 样 本 量 与 题目 数量 对 IRTKE 


ra 


的 影响 。 
3.2 纳入 的 影响 因素 


3.2.1 带宽 选择 方法 


复 平 请 法 为 三 种 常用 的 带宽 选择 方法 ， 对 它们 相互 比 


Urli 
roy 


ETA. Silverman 经 验 准 则 、 
较 的 同时 ， 亦 可 提高 结论 外 部 效 度 。 
3.2.2 考生 样本 量 


IRT 参数 估计 对 样本 量 要 求 较 高 ， 一 般 取 500 UE (Hambleton & Jones, 1993). 2548 


关 研 究 (De Ayala et al., 2018; Kim, 2014; Liang & von Davier, 2014), 共 设 定 三 个 样本 量 水 平 : 
1000 人 小 样本 )、2000 人 “中 等 样本 )、5000 人 大 样本 )“。 
3.2.3 题目 数量 

根据 De Ayala 等 人 (2018)、Kim (2014)、Liang 和 von Davier (2014) 及 国内 考试 的 试 


卷 构成 ， 并 结合 抽样 数据 源 情 况 〈 见 表 1)， 设 定 题 目 量 水 平 : 30 与 44， 分 别 代表 较 短 和 中 


等 长 度 测验 。NEAT 锚 题 比例 设 定 为 30%， 即 9 题 与 14 题 。 
3.2.4 等 值 设计 

EG 与 NEAT 涵盖 常用 等 值 设计 的 处 理 思 想 , 故 在 二 者 情况 下 探究 IRTKE 的 表现 .NEAT 
中 具体 采用 的 EE 方法 为 链 等 值 (Chained Equating )。 
3.2.5 数据 模拟 方式 

构造 法 直接 在 真实 数据 中 抽样 以 得 到 满足 特定 要 求 的 测验 与 考生 样本 。IRT 法 需 在 特定 
的 先 验 分 布 中 抽取 参数 值 ， 从 而 计算 作答 矩阵 。 综 合 考量 二 者 结果 ， 可 提高 结论 的 普 适 性 。 
3.3 数据 与 工具 


数据 源 为 某 大 型 语言 测试 Form 1 和 Form 2〈 同 一 批 考生 ; González & Wiberg, 2017), 


各 包含 80 道 题 ( 二 级 计 分 )。 两 次 测试 间隔 6 个 月 ,基础 情况 见 表 1。 采 用 2PLM WME Form 
1 数据 ， 得 到 题目 参数 信息 见 表 2. 
表 1 语言 测试 
Form 1 Form 2 Form 1 Form 2 
样本 量 8000 8000 标准 关 12.66 12.59 
题目 数量 80 80 偏 度 0.12 0.04 
ERI GEWE) 9 (0) 11 (0) 峰 度 -0.65 -0.65 
最 高 分 (理论 值 ) 79 (80) 78 (80) zs BE 0.90 0.90 
平均 值 43.33 44.24 相关 0.86 


表 2 Forml 题目 参数 


”本 研究 采用 EG 与 NEAT， 单 次 等 值 需 两 个 考生 样本 ， 故 此 处 为 其 样本 量 之 和 。 
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平均 数 标准 差 最 小 值 最 大 值 
区 分 度 0.78 0.28 0.15 1.47 
难度 0.25 0.74 -1.56 2.13 


所 有 分 析 采 用 R(R Core Team, 2017) 调用 软件 包 kequate (Andersson etal., 2013)、mirt 


(Chalmers, 2012), equateIRT (Battauz, 2015) 完成 。 


3.4 模拟 流程 


A 采用 2PLM， 计 算 FORMI1 数 据 的 题目 参数 和 能 力 参 数 。 
虚线 ，IRT 法 
构建 待 等 人 测验 : 
| 
O EG: 随机 种 取 认 题 〔 参 载 值 ) ANEXA MY (TRAE, FA) 
© NEAT: MH MUNA (FR) mkA, MEXA ALY 
=] 
构建 待 等 人 考生 样本 
站 -----------------------------] © EG: MAMA RETR IER CIR), MOREL SHER 重复 500 次 ， 
H O NEAT: AMHR, HAAS TIED LAHAN, iiim 计算 评价 指标 。 
| 4, HR RLY RD. F 
! | 
根据 抽取 的 题目 与 考生 信息 ， 采 用 | 站 于 作 竺 数据， 计算 IRT 观 察 分 娄 坊 等 人 方法 的 结果 。 | 
2PLM 生 成 考生 作 演算 阵 . a Wn. smemmewan. eraga, 00) pmmmmccmssed 


图 1 模拟 流程 


以 NEAT 为 例 ， 详 细 介 绍 两 种 数据 模拟 方式 的 研究 过 程 (EG BU, AEE). 


3.4.1 构造 法 


CDH Form] 中 随机 抽取 试题 及 全 部 考生 对 应 作答 结果 , 构造 锚 测 验 A、 测 验 X 与 Y。 
(2) 按 Form2 成 绩 是 否 高 于 平均 分 ， 将 考生 分 成 高 、 低 分 数组 ， 分 别 随机 抽取 考生 及 其 作 


答 结 果 ， 构 成 具有 能 力 差 异 的 两 样本 。(3 ) 采用 不 同 带宽 选择 方法 ， 计 算 IRTKE. (4) 


上 述 过 程 500 次 ， 计 算 评 价 指标 。 


3.4.2 IRT 法 


Urli 


ER 


(1) 采用 2PLM WA Form! 数据 ， 并 计算 题目 与 被 试 参数 。(2) 随机 抽取 试题 及 对 应 


试题 参数 估计 值 ， 构 造 锚 测 验 A、 测 验 X BY. (3) 根据 能 力 均 值 将 考生 划分 成 高 、 低 能 


组 ， 分 别 随机 抽取 能 力 值 ， 构 成 具有 能 力 差 异 的 两 样本 。(4) 通过 2PLM， 计 算 考 生 1 


Rí 


作 


答 概率 , 并 将 其 与 从 U(0,D) 抽 取 的 随机 数 比 较 , 获得 作答 矩阵 。(5 ) 采 用 不 同 带宽 选择 方法 ， 


计算 IRTKE。(6) 重复 上 述 过 程 500 次 ， 计 算 评 价 指标 。 
3.5 评价 指标 


3.5.1 局 部 指标 


分 数 点 或 原点 矩 的 表现 。 


局 部 指标 有 百 分 相 对 误差 (Percent Relative Error, PRE) 与 SEE， 反 映 等 值 方法 在 单个 


(1) PRE 度量 ey(X) 与 Y 的 分 布 差异 , p 阶 PRE 为 PRE(p) = 100 x le ， 其 中 
p 


hp) = Eee» pp(er(X)) = Le (ey (2)) 7 
采用 链 等 值 可 分 别 得 到 将 测验 X 等 值 到 A 与 将 锚 测 验 A 等 值 到 Y 的 PRE。 将 二 者 取 
绝对 值 后 加 和 ， 并 求 500 次 的 平均 值 。 
(2) SEE 代表 随机 误差 ，SEEy(x) =l JeyJprC lo HA, J。 为 KE 函数 关于 + 与 s 的 雅 
可 比 窍 阵 ; 7pz 为 设计 函数 关于 7 与 s 的 雅 可 比 矩 阵 ; C 为 估计 分 数 概率 阶段 得 到 的 特殊 矩 
MF, HE,,=Cov( se ve B» 最 后 ， 将 500 批 SEE 求 平均 。 


U1 


3.5.2 全 域 指标 
全 域 指标 刻画 等 值 方法 在 分 数 区 间或 所 有 原点 矩 的 表现 , 包含 平均 PRE (Averaged PRE, 


APRE ) 与 平均 SEE ( Averaged SEE, ASEE ) APRE = 2 了 21PRE(D) ASEE = 


2iwiSEEy(Xi)， 其 中 ， wi =a NAB, 的 人 数 ， N7 为 总 人 数 。 


4 结果 
4.1 抽样 概况 


分 别 计算 各 条 件 组 合 得 到 的 500 批 测验 X 分 数 的 描述 统计 量 ， 详 见 表 3 和 表 4。 
表 3 模拟 分 数 情况 (EG) 


模拟 方式 “样本 量 -题目 量 。 平均 数 PREZ 最 小 值 最 大 值 偏 度 峰 度 
1000-30 16.29 5.18 0 30 0.06 -0.59 
2000-30 16.28 5.19 0 30 0.06 -0.60 
S 5000-30 16.28 5.19 0 30 0.06 -0.60 
构造 法 
1000-45 24.43 7.45 1 45 0.08 -0.63 
2000-45 24.42 7.45 1 45 0.08 -0.63 
5000-45 24.42 7.44 1 45 0.08 -0.63 
1000-30 13.35 5.58 0 30 0.45 -0.35 
2000-30 13.36 5.58 0 30 0.45 -0.35 
: 5000-30 13.35 5.57 0 30 0.45 -0.35 
IRT 法 
1000-45 20.04 8.06 0 45 0.49 -0.33 
2000-45 20.05 8.06 0 45 0.49 -0.33 
5000-45 20.05 8.06 0 45 0.49 -0.33 


表 4 模拟 分 数 情况 (NEAT) 


模拟 方式 “样本 量 -题目 量 。 平均 数 标准 凑 最 小 值 最 大 值 偏 度 峰 度 
1000-30 19.78 4.04 0 30 -0.21 -0.11 

2000-30 19.78 4.03 0 30 -0.21 -0.10 

构造 法 5000-30 19.78 4.03 0 30 -0.22 -0.11 
1000-45 29.67 5.63 3 45 -0.19 -0.06 

2000-45 29.67 5.63 2 45 -0.19 -0.07 


5000-45 29.67 5.64 2 45 -0.19 -0.07 
1000-30 17.77 4.40 2 30 0.26 -0.40 
2000-30 17.78 4.40 2 30 0.27 -0.39 
: 5000-30 17.78 4.40 2 30 0.27 -0.39 
IRT 法 
1000-45 26.66 6.18 7 45 0.38 -0.36 
2000-45 26.66 6.19 8 45 0.38 -0.36 
5000-45 26.66 6.18 6 45 0.38 -0.36 
4.2 EG 
4.2.1 局 部 表现 
据 图 2， 随 原点 矩 阶 数 升 高 ，PRE 均 不 同 程度 上 扬 ， 等 值 前 后 分 数 分 布 形态 差异 逐渐 增 


大 。 除 高 阶 原点 和 矩 和 个 别 情况 〈 图 2 £ FP “sil-1000-30”) 外 ， 


换 的 影响 基本 无 差异 。 扩 大 样本 量 与 题目 量 对 降低 PRE 指标 有 积极 作用 ， 


显 (对 比 图 2 左上 与 右上 、 左 下 与 右 下 )。 


数据 模拟 方式 与 题目 数量 间 存 在 交互 作用 
从 SEE 角度 (图 3), 与 PRE 类 似 ， 带 


[三 


> NZ 


SIAN 


用 


(对 比 


可 减 小 随机 误差 。 但 题目 上 


高 右 低 ”， 而 IRT HAA “ERA 


4.2.2 全 域 表 现 


=r 
Tay ° 


带宽 参数 选择 方法 对 分 数 转 
其 中 后 者 尤为 明 
IRT 法 且 30 道 题 时 ,各 PRE 曲线 较 分 散 ， 
图 2 左上 与 左下 、 右 上 与 右 下 )。 
宽 参 数 选择 方法 间 SEE 基本 无 差异 ， 扩 大 样本 量 


增加 反而 导致 SEE 稍 有 扩大 。 此 外 , 采用 构造 法 得 到 的 SEE “Ar 


据 表 5, 在 EG H, APRE 较 小 ( 除 0.27 Sh), 带宽 参数 选择 方法 间 APRE 无 明显 差异 。 
样本 量 与 题目 数量 对 其 影响 与 前 述 一 致 。 采 用 构造 法 的 APRE 较 IRT 法 小 ， 但 差异 甚 微 。 
各 带宽 选择 方法 间 的 ASEE/SD 相同 ， 且 随 样本 量 增加 和 题目 量 减少 ， 有 降低 趋势 ， 但 
幅度 较 小 。 构 造 法 与 IRT 法 所 得 ASEE 基本 无 差异 。 
表 5 全 域 指标 APRE 5 ASEE (EG) 
APRE ASEE/SD* 
样本 量 - 题 目 量 构造 法 IRT 法 构造 法 IRT 法 
Pen Sil Dou Pen Sil Dou Pen Sil Dou Pen Sil Dou 
1000-30 0.04 0.04 0.04 0.06 0.27 0.06 0.03 0.03 0.03 0.03 0.03 0.03 
2000-30 0.02 0.02 0.02 0.04 0.04 0.04 0.02 0.02 0.02 0.02 0.02 0.02 
5000-30 0.01 0.01 0.01 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01 
1000-45 0.02 0.02 0.02 0.03 0.03 0.03 0.04 0.04 0.04 0.05 0.05 0.05 
2000-45 0.01 0.01 0.01 0.02 0.02 0.02 0.03 0.03 0.03 0.03 0.03 0.03 
5000-45 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.02 
YE: Pen, Sil 与 Dou 分 别 代表 惩罚 法 、Silverman 经 验 准 则 、 重 复 平 滑 法 。 


”为 便于 结果 间 比 较 ， 采 | 


原始 测验 分 数 的 标准 差 对 ASEE 标准 化 处 理 。 表 6 同 理 。 
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4.3 NEAT 


4.3.1 局 部 表现 
从 PRE 角度 , 据 图 4, 随 原 点 矩 阶 数 升 高 , PRE 呈现 不 同 程度 上 扬 。 和 


经 验 准则 结果 重合 


， 对 分 数 转换 影响 较 小 ; 


左上 与 右上 、 左 下 与 


PRE. X 


J IRT IAA MIA 


右 下 


)。 与 EG 相似 ， 题 


且 当 题目 


dul 
oh 


构造 法 的 PRE 值 较 IRT 法 对 应 值 小 。 
从 SEE 角度 ， 据 图 $ 


， 采 用 构造 法 时 ， 带 宽 
处 存在 略微 差异 。 采 用 IRT T, 
数 附 近 ，Silverman 经 验 准 


本 量 和 题目 量 可 减 小 随机 误差 。 同 时 ， 构 造 法 的 SEE 在 数值 和 形态 


4.3.2 全 域 表 现 


参照 表 6, Æ NEAT 中 , APRE 值 较 大 (最 大 3.52). 5 RKI 
经 验 准则 的 APRE 较 重 复 平 滑 法 小 。 样 本 量 增加 ，APRE 变 大 ， 但 


参数 选择 方法 表 
参数 选择 方法 仅 在 中 间 1 
E 则 还 于 其 他 方法 ， 而 在 中 间 偏 高 


目 数量 较 少 时 ， 


加 ，PRE 减 小 ; 


ie TA’ Silverman 


该 优势 较 突出 (对 比 图 4 


lL 一致 , 惩 


但 样本 量 却 几乎 不 影响 
量 为 30 时 ， 重 复 平 滑 法 的 PRE 受 考生 人 数 影响 较 大 。 同 时 ， 基 于 


现 基本 一 致 ， 仅 在 高 、 低 分 
FRAY BUA: 在 高 、 低 分 
分 数 处 ， 优 于 其 他 方法 。 扩 大 样 
波动 上 均 较 IRT 法 小 。 


= LYE Silverman 


加 对 降低 APRE 有 显著 作用 。 构 造 法 的 APRE 较 IRT 法 对 应 值 小 。 


ASEE 指标 在 带宽 选择 方法 间 不 存在 


是 


J] i. 


增 量 不 明显 ， 而 题目 量 增 


差异 ， 


小 趋势 。 构 造 法 的 ASEE 远 小 于 IRT 法 对 应 值 。 


表 6 全 域 指 标 APRE 5 ASEE (NEAT) 


其 随 样本 量 与 题目 量 的 增加 ， 均 呈 减 


APRE ASEE/SD 
样本 量 -题目 量 构造 法 IRT 法 构造 法 IRT 法 
Pen Sil Dou Pen Sil Dou Pen Sil Dou Pen Sil Dou 
1000-30 2.07 2.07 2.75 2.29 2.29 3.17 0.68 0.69 0.69 2.79 2.63 2.82 
2000-30 2.09 2.09 2.72 2.31 2.31 3.52 0.38 0.38 0.38 0.94 0.88 0.96 
5000-30 2.11 2.11 2.73 2.33 2.33 3.33 0.28 0.29 0.28 0.43 0.41 0.44 
1000-45 0.96 0.96 1.22 1.19 1.19 1.62 0.13 0.13 0.13 2.69 2.56 2.71 
2000-45 0.97 0.97 1.23 1.21 1.21 1.64 0.05 0.05 0.05 0.38 0.36 0.38 
5000-45 0.98 0.98 1.24 1.22 1.22 1.66 0.03 0.03 0.03 0.04 0.04 0.04 
YE: Pen, Sil 5 Dou SIRERE, Silverman 经 验 准 则 、 重 复 平滑 法 。 
5 讨论 
5.1 带宽 选择 方法 与 等 值 设计 
带宽 选择 方法 对 等 值 的 影响 ， 因 等 值 设计 而 异 。 在 EG 中 ， 带 宽 选 择 方法 间 无 较 大 差异 
(Häggström & Wiberg, 2014); 但 在 NEAT 中 ， 惩 罚 法 与 Silverman 经 验 准 则 的 表现 优 于 重 
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dou-2000-30 


一 一 一 pen-s000-30 — — — sil-5000-30 ~ — ~ dou-5000-30 


0.15 


0.35 


— pen-1000-30 sil-1000-30 dou-1000.30 
sesse pen-2000-30 srs sil-2000-30 ~- dou-2000-30 
= = = pen-5000-30 ~- ~ = sil-5000-30 ~ ~ ~ dou-5000-30 
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pen-2000-45 - 
— pen-S000.45 


‘sil-1000-45 


dou-1000-45 


- sil-2000-45 > dou-2000-45 


= sil-5000-45 = dou-5000-45 


$: 上 图 与 下 图 分 别 为 构造 法 和 IRT YE; Pen. Sil 与 Dou 分 别 代表 惩罚 法 、Silverman 经 验 准 则 、 


图 2 PRE (EG) 


toh 
‘eH 
n 


代表 样本 量 和 题目 量 ， 除 左下 外 ， 其 他 各 图 中 三 种 带宽 选择 方法 结果 基本 重合 。 
—— pen-1000-30 sil-1000-30 dou-1000-30 pen-1000-45 sil-1000-45 dou-1000-45 
++. pen-2000-30 ……… sil-2000-30 ……… dow-2000.30 ~ pen-2000-45 ~- sil-2000-45 +--+ dou-2000-45 
— = = pen-5000-30 — — — sil-5000-30 — — — dou-5000-30 = = = pen 5000.45 — sil 5000.45 一 — — dow 5000 45 
0.06 7 0.06 


0.05 


0.04 


0.02 


0.01 


0.06 


0.08 


0.01 


o 5 10 15 20 25 30 o 5 10 15 20 25 30 35 40 45 
分 数 分 数 
pen 1000 30 sl 1000 30 dou 1000 30 Pen-1000-45 — sil-1000-45 dou-1000-45 
+1 pen-2000-30 === sl-2000-30 sess dou-2000-30 sss pen-2000-45 eo sil-2000-45 -=+ dou-2000-45 
= — = pen-5000-30 — — ~ sil-5000-30 — — ~ dou-5000-30 = = — pen-500045 一 一 — sil-5000-45 — — — dou-500045 


代表 样本 量 和 题目 量 ， 除 左下 外 ， 


他 各 


图 中 三 种 带宽 选择 方法 结果 基本 


图 3 SEE (EG) 


VE: 上 图 与 下 图 分 别 为 构造 法 和 IRT 法 ，Pen、Sil 与 Dou 分 别 代表 惩罚 法 、Silverman 经 验 准则 、 重 复 平滑 法 ，1000、2000、5000 与 30、35 分 别 


到 合 ， 纵 轴 将 所 有 结果 置 于 标准 差 单 位 量 尺 。 
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平滑 法 ，1000、2000、5000 与 30、35 分 别 
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PRE 


图 4 PRE (NEAT) 


$: 上 图 与 下 图 分 别 为 构造 法 和 IRT YE; Pen. Sil 与 Dou 分 别 代表 惩罚 法 、Silverman 经 验 准 则 、 
代表 考生 样本 量 和 题目 量 ， 除 左下 图 外 ， 其 他 三 种 带宽 选择 方法 结果 基本 重合 。 


toh 
i 
H 


平滑 法 ，1000、2000、5000 45 30, 45 分 别 


一 一 pen-100030 sil-1000-30 dou-1000-30 — pen-1000.45 sil-1000-45 dou-1000-45 
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图 5 SEE (NEAT) 


FE: 上 图 与 下 图 分 别 为 构造 法 和 IRT 法 ， Pen、Sil 与 Dou 分 别 代表 惩罚 法 、Silverman 经 验 准 则 、 


代表 考生 样本 量 和 题目 量 ， 纵 轴 将 所 有 结果 置 于 标准 差 单位 量 尺 。 


Heh 
E 
p 


平滑 法 ，1000、2000、5000 45 30, 45 分 别 
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复 平滑 法 。 区 分 EG 与 NEAT 的 关键 因素 之 一 是 等 值 群体 能 力 差 异 〈Kolen & Brennan, 2014)。 为 充 
分 体现 非 等 组 ， 依 据 Form2 成 绩 ， 构 造 高 、 低 能 力 的 考生 群体 ， 其 平均 分 数 差异 为 18.21 分 (满分 
80 分 )。 故 而 ， 考 生 能 力 水 平 差 异 使 EG 与 NEAT 结果 有 别 ， 且 在 同等 条 件 下 ， 前 者 误差 较 后 者 小 
(Dorans et al., 2008; Sinharay & Holland, 2010; Wang et al., 2008)， 这 在 本 研究 两 大 类 指标 中 均 有 所 
体现 。 综 合 两 种 等 值 设 计 ， 惩 罚 法 与 Silverman 经 验 准 则 表现 较 优 。 保 留 两 位 小 数 ， 二 者 PRE 值 相 
同 。 这 可 能 是 Forml 分 数 特 征 与 标准 正 态 分 布 相近 ， 而 Silverman 经 验 准 则 正 是 基于 正 态 分 布 的 简 
单 算法 (Wallin et al., 2017). Andersson 和 von Davier (2014) 也 有 相似 发 现 ， 当 分 数 分 布 较为 平滑 
时 ， 惩 罚 法 第 一 部 分 表现 优异 ， 反 之 ，Silverman 经 验 准 则 较 好 。Silverman 经 验 准 则 计算 简单 、 直 
Be; 但 当 分 数 分 布 非 正 态 时 ， 误 差 可 能 较 大 。 可 见 ， 各 方法 具有 一 定 程度 的 稳健 性 。 
5.2 考生 样本 量 与 题目 数量 

其 他 条 件 不 变 ， 增 大 样本 量 可 降低 SEE (Kolen & Brennan, 2014)， 这 在 NEAT 中 最 明显 。 二 者 
间 存 在 边际 递减 关系 一 一 SEE 降低 的 幅度 随 样 本 量 增 大 而 逐渐 变 小 。Godfrey (2007) 发 现 ， 当 样本 
量 较 小 时 , KE 与 常用 等 值 方法 间 存 在 明显 差异 ; 但 随 其 增 大 , 各 方法 趋 于 一 致 。 Kim (2014)、Liang 
All von Davier (2014) 的 结论 类 似 。 这 是 因为 ， 等 值 系统 误差 主要 来 源 于 估计 准确 性 、 统 计 假 设 、 等 
值 设计 与 组 间 差 异 ， 受 随 样本 量 影响 较 小 。 而 主要 来 源 于 抽样 代表 性 的 随机 误差 则 会 随 样本 量 增 大 
而 减 小 〈Kolen & Brennan, 2014)。 因 此 ， 适 当 增 加 样本 量 可 提高 等 值 准 确 性 。 受 限于 数据 源 的 题目 
， 本 研究 未 探讨 测验 题目 量 较 大 的 情况 。 

不 计 其 他 因素 ， 测 验 题目 量 与 信 度 成 正比 ， 可 为 等 值 提供 有 利 保 障 ;但 题目 增多 也 使 分 数 区 间 

扩张 ， 分 配 到 各 分 数 点 的 考生 量 减少 ， 导 致 误差 扩大 〈Wang etal.,2008)。 在 实际 情况 中 ， 随 题目 数 
量 增多 , 信 度 影响 等 值 的 增 量 变 小 , 而 各 分 数 的 频率 却 会 急 相 减 小 EG 中 的 SEE 指标 也 体现 此 点 。 
例如 ，Norman Dvorak (2009) 发 现 ， 当 题目 量 从 25 道 增加 到 75 道 时 ， 测 验 信和 度 不 断 增 加 ， 而 KE 
的 均 方 根 差异 等 误差 指标 也 在 随 之 增 大 。 

但 在 NEAT 中 ， 锚 测验 题目 增多 可 降低 等 值 误差 。 锚 测验 是 分 离 考生 能 力 差异 与 试卷 难度 差异 
的 关键 因素 ， 适 当 增加 其 长 度 ， 可 更 好 地 区 分 两 种 差异 。 例 如 ，Andersson (2016) 和 Kim (2014) 
发 现 ， 增 加 锚 题 比 例 可 有 效 减 小 等 值 系统 误差 。 错 测验 长 度 对 等 值 准确 性 的 影响 也 受 边际 递减 效应 
制约 ， 比 如 APRE 和 ASEE 的 表现 。 除 此 之 外 ， 在 图 5 中 ， 当 采用 IRT 法 且 样 本 量 为 1000 时 ， 在 
30 分 左右 ， 题 目 数量 增加 反而 导致 SEE 变 大 ， 这 与 ASEE 结果 不 一 致 。 对 比 两 种 条 件 的 原始 分 数 
分 布 〈 未 呈现 )， 题 目 数量 为 30 时 ， 分 数 集中 于 15 左右 ; 题目 数量 为 45 时 ， 分 数 集 中 于 25 左右 。 
SEE 与 ASEE 结果 不 一 致 主要 由 于 后 者 为 考虑 分 数 分 布 的 加 权 指 标 〈 整 体 表现 )。 而 仅 在 相同 分 数 
位 置 比较 (局 部 表现 ) 时 ,题目 数量 增加 可 降低 SEE， 这 一 结论 在 大 多 数 情况 下 《 除 30 分 左右 外 ) 
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地 


仍 成 立 。 未 来 可 详细 探讨 锚 题 比 例 〈 错 题 数 量 ) 对 IRTKE 的 影响 。 
5.3 数据 模拟 方式 

构造 法 的 初衷 是 对 数据 模拟 方式 偏向 性 的 质疑 。 结 果 表 明 ， 基 于 构造 法 的 指标 较 IRT 法 小 ， 其 
HDA NEAT 的 ASEE 最 为 突出 。 构造 法 与 IRT 法 的 SEE 形状 存在 较 大 差异 , 但 二 者 与 其 他 因素 间 不 
存在 明显 的 交互 作用 。 结 合 表 3 与 表 4 推测 ， 相 较 于 IRT 法 ， 构 造 法 获得 的 分 数 偏 高 且 更 为 集中 ， 
故而 低 分 段 人 数 较 少 ， 从 而 导致 SEE AK. von Davier 等 人 (2004) 详细 描述 并 解释 过 KE 中 这 种 
常见 的 “两 端 高 中 间 低 ”的 情况 。 但 该 差异 是 否 由 数据 模拟 方式 造成 ， 能 否 影响 分 数 解释 ， 尚 无 定 
论 。 须 慎重 对 待 仅 采用 IRT 法 的 研究 结果 ， 可 选择 较为 中 立 的 构造 法 开展 研究 ， 未 来 仍 需 深入 探索 
二 者 间 的 差异 与 原因 。 
6 结论 

IRTKE 具备 IRTOSE 和 KE 的 优异 特性 ， 本 研究 从 不 同等 值 设计 和 数据 模拟 方式 角度 ， 探 讨 带 
宽 选 择 方法 、 样 本 量 、 题 目 数量 对 其 的 影响 ， 主 要 得 出 以 下 结论 : (1) 在 EG P, 惩罚 法 、Silverman 
经 验 准 则 和 重复 平滑 法 表现 相似 。(2) 在 NEAT 中 ， 惩 罚 法 与 Silverman 经 验 准 则 表现 较 佳 。 特 别 
地 ， 在 极端 分 数 附 近 ，Silverman 经 验 准则 略 进 于 其 余 两 种 方法 ;而 在 中 间 偏 高 分 数 处 ， 表 现 较 优 。 
(3) 在 一 般 情况 下 , 增 大 考生 样本 量 和 题目 数量 均 可 降低 等 值 误差 , 该 现象 在 NEAT 中 最 为 明显 。 
(4) 数据 模拟 方式 可 干扰 结果 ,在 涉及 方法 比较 的 研究 中 , 尤其 是 当 待 比较 的 方法 与 数据 模拟 方式 


共享 某 种 理论 时 ， 应 尽量 避免 其 对 结果 的 误导 。 
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Abstract 

Attributing to its advantages of pre-smoothing and continuization of score distributions, kernel equating 
has been testified and shown equivalent to or better than other equating methods, especially traditional ones, 
in the aspect of equating accuracy and stability. IRT observed score kernel equating is formed by integrating 
kernel equating and IRT observed score equating. Few researches have focused on evaluating its 
performance systematically. Therefore, bandwidth selection method, sample size, test length, equating 
design, and data simulation methods were investigated about their influence on it. 

To ensure ecological validity, data from a large-scale assessment were used as the sampling pool. IRT data 
simulation method and pseudo tests and pseudo groups simulation method were used to avoid the simulation 
preference in random Equivalent Groups design (EG) and Non-Equivalent groups with Anchor Test design 
(NEAT). In detail, bandwidth selection methods included Penalty method, Silverman’s rule of thumb method, 
and Double smoothing method. Levels of sample size were 1000, 2000, and 5000. Meanwhile, test 
containing 30 items and 45 items were considered. Finally, local criteria and universal criteria were computed, 
the former of which were Percent Relative Error (PRE) and Standard Error of Equating (SEE), and the latter 
of which were Averaged Percent Relative Error (APRE) and Averaged Standard Error of Equating (ASEE). 

It was found out that in EG, regarding local criteria, PRE increased as central moment became higher, 
which also meant that the distribution difference before and after equating was enlarged. Nonetheless, 
considering that PRE was formed by multiplying initial difference with 100, bandwidth selection methods 
performed alike. On the other hand, PRE was significantly reduced by increasing sample size and 
lengthening tests, especially by the latter one. Similar to PRE, when it came to SEE, there was no difference 
between effect of bandwidth selection methods. Larger sample size rendered less random error, which was 
contrary to test length. Furthermore, curves of SEE were “high at left but low at right” for pseudo tests and 
pseudo groups method, and “low at left but high at right” for IRT simulation method. As for universal criteria, 
APRE among bandwidth selection methods were alike, which were all small. Effects of sample size and test 
length were same as observed in local criteria. There was no significant difference between ASEE for two 
data simulation methods. 

In NEAT, regarding local criteria, PRE increased as central moment became higher. The results of Penalty 
method and Silverman’s rule of thumb method coincided, which were superior to others. And this trend was 
more evident when test is shorter. PRE was significantly reduced by lengthening tests as in EG, but not by 
increasing sample size. To be mentioned was the results that PRE for Double smoothing method was most 
influenced by sample size when test included 30 items and IRT simulation method was used, which indicated 
some interactions among them. When it came to SEE, bandwidth selection methods performed alike, only 
showing discrepancies at extreme scores. Increasing sample size and lengthening test could reduce random 
error. Meanwhile, distribution of SEE for pseudo tests and pseudo groups method was more stable than that 
for IRT method. As for universal criteria, the trends for APRE and ASEE were same as those in local criteria. 

To summarize, performances of bandwidth selection methods were similar in EG, but Penalty method and 
Silverman’s rule of thumb method prevailed in NEAT. Bandwidth selection, sample size, and test length 
affected IRT observed score equating together. Preference of data simulation methods was spotted, which 
suggested researchers that multiple simulation methods and designs should be conducted before final 
conclusions are drawn in the field of comparison of equating method. Further study should focus more on 
the systematic evaluation of equating. 

Key words IRT observed score kernel equating; bandwidth selection methods; equating design; data 
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